检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 面向视觉问答的跨模态交叉融合注意网络

王茂, 彭亚雄, 陆安江

《计算机应用》唯一官方网站 2022, 42 (3): 854-859. DOI: 10.11772/j.issn.1001-9081.2021030470

摘要（269）

HTML （8）

PDF （759KB）（82）

为了提高视觉问答（VQA）模型回答复杂图像问题的准确率，提出了面向视觉问答的跨模态交叉融合注意网络（CCAN）。首先，提出了一种改进的残差通道自注意方法对图像进行注意，根据图像整体信息来寻找重要区域，从而引入一种新的联合注意机制，将单词注意和图像区域注意结合在一起；其次，提出一种“跨模态交叉融合”网络生成多个特征，将两个动态信息流整合到一起，每个模态内产生有效的注意流，其中对联合特征使用逐元素相乘的方法。此外，为了避免计算成本增加，网络之间共享参数。在VQA v1.0数据集上的实验结果表明，该模型的准确率达到67.57%，较MLAN模型提高了2.97个百分点，较CAQT模型提高了1.20个百分点。所提方法有效提高了视觉问答模型的准确率，具有有效性和鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价